今天是第二天,昨天簡略查詢了一下爬蟲是甚麼,現在讓我們正式開始攻略它吧!
網路爬蟲具體來說就是向網站傳送GET請求或其他方式請求網址內容,伺服器就會將網頁的原始碼回傳,通常會是HTML文件,而網路爬蟲取得HTML文件後,服務器返回應網頁的HTML文件,獲取需要的資料,並將資料儲存在資料庫中。
其實爬蟲就是一種能夠自動抓取資料的工具,它能夠協助我們更有效率的完成工作,減少用人工大量又繁瑣的重複性動作,並且節省非常多時間。
來了解一下網路爬蟲究竟有甚麼優點與缺點吧:
優點:
1.自動化取代真人
2.節省不必要的時間
3.能夠處理大量資料
4.是搜尋引擎的要件
缺點:
1.有一些網站的作者禁止其他人爬取內容,未經過允許可能會觸犯到法律道德問題。
2.一次出現大量的爬蟲請求可能會帶給網站伺服器很大的負擔,恐怕會影響網站的正常運行。
3.爬蟲抓取到的資料不一定完全精準,還是要透過其他方式驗證。
明天第三天繼續加油!